查看原文
其他

极值理论初探

卫楚 狗熊会 2023-08-15
点击蓝字
关注我们

今天和大家简单介绍一下极值理论。我们主要回答三个问题:什么是极值?什么是极值理论?极值理论中有哪些常用的方法?

什么是极值?

在介绍极值理论之前,我们首先要回答两个问题:什么是极值?我们为什么要研究极值?大部分人对极值的第一反应是一组数据的极大值和极小值;但更一般地,任何发生概率极小的极端事件都可以视为极值,例如“N年一遇”的气象灾害、金融风控中的“黑天鹅事件”。这些极端事件虽然发生概率小,但一旦发生,往往会造成不可估量的影响,甚至是毁灭性的打击。因此极值受到了研究者的广泛关注。

什么是极值理论?

极值理论(Extreme Value Theory, 简称EVT), 顾名思义就是对极值进行建模分析的一种统计方法,以此帮助人们评估风险的大小。极值理论的难点和重点在于,如何基于有限的历史观测数据,合理外推到极端情形。例如今年7月发生在河南的特大暴雨气象灾害,有关部门先后以重现期“5000年一遇”、“千年一遇”的表述来反映此次暴雨灾害的严重性。如果说某日单日降雨量的重现期达到“N年一遇”,则是指大于等于该降雨量的暴雨每年发生的概率为1/N。但显然,这里的5000年、千年绝对是不可能直接通过计算历史数据的经验分位数得到的,毕竟我国有较为完整的气象观测记录才70余年。如果将此转化为一个统计问题,可以表述为,基于大小为的历史观测数据(例如70年的降雨量记录),给定某一阈值, 其中(如此次暴雨期间,某地区某日的单日降水量),如何估计

图:水利部官网发布的暴雨灾害信息

极值理论的另一个经典问题估计高分位数,即给定某一个极小的概率值 (一般  ),如何估计满足的分位数。例如在修建大型水利工程时,为保证安全,往往需要以能抵御百年一遇的洪水标准来设计修建方案,此时就需要估计百年一遇的洪水大小。

极值理论的常见方法

要解决上述两个问题,关键在于如何对数据服从的分布尾部特征进行建模,找出其中的统计规律。常用的方法可分为两类,分别是Block Maxima (BM)方法和Peak Over Threshold (POT)方法。接下来我们简单介绍一下这两种方法的基本思想和各自的优缺点。需要说明的是,以下的结论都是基于原始数据是独立同分布的假设。

BM方法

BM方法首先将将原始数据分为长度相同的若干组,然后在各组中选取最大值构成极值数据序列(如果是研究最小值,可以将原始数据同时取负后再分析)。理论上可以证明在一定条件下,由此构造出的极值数据序列依近似服从广义极值分布(Generalized extreme value, GEV)。其中广义极值分布的概率密度函数为

其中分别对应Frechet分布(厚尾)、Gumbel分布(薄尾,任意阶矩存在)和Weibull分布(尾部有限)。可以利用极大似然估计法得到参数估计,。从而可以通过下列公式得到高分位数的估计:

POT方法

POT方法首先要设定一个阈值,取原始数据中超过该阈值的所有数据构成极值数据序列。可以证明在一定条件下,由此构造出的极值数据序列近似服从广义帕累托分布(Generalized Pareto Distribution, GPD)。其中广义帕累托分布的概率密度函数为
同理,也可以根据极大似然方法得到参数估计,从而得到的估计

两种方法的比较

POT和BM两种方法均是通过构造极值数据来对数据分布的尾部特征进行建模,区别在于具体的构造方式。两种方法都会涉及到超参数的选择问题:BM需要考虑每组的长度,POT需要考虑阈值的大小。如果每组长度过长或者阈值过高时,极值数据序列中的样本量就会过少,造成参数估计的方差过大;但如果每组长度过短或者阈值太低,选择出的极值数据不具有代表性,不符合极值模型的理论要求,造成参数估计的偏差过大。在实际分析中,超参数的选择是非常重要的一环。但有些情形下,对于BM,数据的分组有比较简单的选择方式。例如气象、水文等领域的数据常常会呈现出明显的时间特点,比如季度数据、月度数据,此时数据已自动地被不同的时间节点划分为不同的组别。因此这类数据的分析常使用BM法。但相比于POT, BM的缺点在于可能会造成信息的大量缺失,比如某一组会比其他组包含更多的极值信息。不过理论上并不能证明POT一定优于BM。关于这两种方法更详细的讨论,感兴趣的读者可以参阅文献[1]。

图:BM法(左)与POT法(右)构造极值示意图(图片来源:参考文献[2])

极值指数的估计

需要指出的是,不管选用哪种建模方法,只要原始数据服从的分布一定,对应的极限分布GEV和GPD中的参数是相同的,也就是说参数完全由原始数据服从的分布决定。极值理论中称为极值指数(Extreme Value Index, EVI)。极值指数的估计一直是极值理论中一个重要的研究问题。因为极值指数的正负、大小可以反映原始数据所服从的分布的尾部性质。像常见的厚尾分布:柯西分布、t分布和帕累托分布所对应的极值指数都是大于0的; 正态分布对应的极值指数为0, 而像均匀分布和Beta分布这种右尾有限的分布对应的极值指数小于0。极值指数越大,说明分布越厚尾。对于极值指数的估计,除了传统的极大似然估计,常用的估计方法还有Hill估计(适用于), 概率加权矩估计(probability weighted moment, PWM)(适用于)等等。感兴趣的读者可以参阅文献[7]的第三章。

参考文献

[1] Bücher, A., & Zhou, C. (2018). A horse racing between the block maxima method and the peak-over-threshold approach. arXiv preprint arXiv:1807.00282.

[2] Gilli, M. (2006). An application of extreme value theory for measuring financial risk. Computational Economics, 27(2), 207-228.

[3] Balkema, A. A., & De Haan, L. (1974). Residual life time at great age. The Annals of probability, 792-804.

[4] Pickands III, J. (1975). Statistical inference using extreme order statistics. the Annals of Statistics, 119-131.

[5] Hill, B. M. (1975). A simple general approach to inference about the tail of a distribution. The Annals of Statistics, 3(5), 1163-1174.

[6] Hosking, J. R. M., Wallis, J. R., & Wood, E. F. (1985). Estimation of the generalized extreme-value distribution by the method of probability-weighted moments. Technometrics, 27(3), 251-261.

[7] De Haan, L., Ferreira, A., & Ferreira, A. (2006). Extreme value theory: an introduction. New York: Springer.

[8] 史道济. (2006). 实用极值统计方法. 天津科学技术出版社.

[9] Coles, S., Bawa, J., Trenner, L., & Dorazio, P. (2001). An introduction to statistical modeling of extreme values. London: Springer.

- END -



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存